We approach the problem of improving robustness of deep learning algorithms in the presence of label noise. Building upon existing label correction and co-teaching methods, we propose a novel training procedure to mitigate the memorization of noisy labels, called CrossSplit, which uses a pair of neural networks trained on two disjoint parts of the dataset. CrossSplit combines two main ingredients: (i) Cross-split label correction. The idea is that, since the model trained on one part of the data cannot memorize example-label pairs from the other part, the training labels presented to each network can be smoothly adjusted by using the predictions of its peer network; (ii) Cross-split semi-supervised training. A network trained on one part of the data also uses the unlabeled inputs of the other part. Extensive experiments on CIFAR-10, CIFAR-100, Tiny-ImageNet and mini-WebVision datasets demonstrate that our method can outperform the current state-of-the-art up to 90% noise ratio.
translated by 谷歌翻译
训练有素的神经网络的性能至关重要。加上深度学习模型的不断增长的规模,这种观察激发了对学习稀疏模型的广泛研究。在这项工作中,我们专注于控制稀疏学习时的稀疏水平的任务。基于稀疏性惩罚的现有方法涉及对罚款因素的昂贵反复试验调整,因此缺乏直接控制所得模型的稀疏性。作为响应,我们采用了一个约束的公式:使用Louizos等人提出的栅极机制。 (2018年),我们制定了一个受约束的优化问题,其中稀疏以训练目标和所需的稀疏目标以端到端的方式指导。使用WIDERESNET和RESNET {18,50}模型进行了CIFAR-10/100,Tinyimagenet和ImageNet的实验验证了我们的提案的有效性,并证明我们可以可靠地实现预定的稀疏目标,而不会损害预测性能。
translated by 谷歌翻译
最近引入了通过机制稀疏性进行的解剖,作为一种原则方法,可以在没有监督的情况下提取潜在因素,而当及时关联它们的因果图很少,并且/或当观察到动作并稀少地影响它们时。但是,该理论仅适用于满足特定标准的基础图。在这项工作中,我们介绍了该理论的概括,该理论适用于任何地面图形,并通过与我们称之为一致性的模型的新等价关系进行定性地指定了如何删除学习的表示形式。这种等效性捕获了哪些因素预计将保持纠缠,哪些因素不基于地面图形的特定形式。我们称这种较弱的可识别性部分分解形式。允许在早期作品中提出的完全分解的图形标准可以作为我们理论的特殊情况得出。最后,我们以约束优化的方式执行图形稀疏性,并在模拟中说明了我们的理论和算法。
translated by 谷歌翻译
在贝叶斯结构学习中,我们有兴趣从数据中推断出贝叶斯网络的定向无环图(DAG)结构。由于组合较大的样本空间,定义这种分布非常具有挑战性,并且通常需要基于MCMC的近似值。最近,已引入了一种新型的概率模型,称为生成流网络(GFLOWNETS),作为离散和复合对象(例如图形)生成建模的一般框架。在这项工作中,我们建议使用GFLOWNET作为MCMC的替代方案,以近似贝叶斯网络结构的后验分布,给定观测数据集。从该近似分布中生成样本DAG被视为一个顺序决策问题,在该问题中,该图是根据学习的过渡概率一次构造一个边缘的。通过对模拟和真实数据的评估,我们表明我们的方法称为dag-gflownet,可以准确地近似DAG,并且它可以与基于MCMC或变异推断的其他方法进行比较。
translated by 谷歌翻译
大多数设置深度学习的预测模型,使用Set-Scifariant操作,但它们实际上在MultiSet上运行。我们表明设置的函数不能代表多种功能上的某些功能,因此我们介绍了更适当的多种式概念概念。我们确定现有的深度设置预测网络(DSPN)可以是多机构的,而不会被设定的标准规模阻碍,并通过近似隐式差分改进它,允许更好地优化,同时更快和节省存储器。在一系列玩具实验中,我们表明,多机构的角度是有益的,在大多数情况下,我们对DSPN的变化达到了更好的结果。关于CLEVR对象性质预测,由于通过隐含分化所取得的益处,我们在最先进的评估指标中从8%到77%的最先进的槽注意力从8%提高到77%。
translated by 谷歌翻译
我们以非渐近方式考虑最大似然估计(MLE)的预期对数估计(MLE)的预期似然估计(MLE)的最佳次数(MAL)的缀合物最大(MAP)的问题。令人惊讶的是,我们在文献中没有找到对这个问题的一般解决方案。特别是,当前的理论不适用于高斯或有趣的少数样本制度。在表现出问题的各个方面之后,我们显示我们可以将地图解释为在日志可能性上运行随机镜像下降(SMD)。然而,现代收敛结果不适用于指数家庭的标准例子,突出趋同文献中的孔。我们认为解决这一非常根本的问题可能会对统计和优化社区带来进展。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
这项工作介绍了一种新颖的原则,我们通过机制稀疏正规调用解剖学,基于高级概念的动态往往稀疏的想法。我们提出了一种表示学习方法,可以通过同时学习与它们相关的潜在因子和稀疏因果图形模型来引起解剖学。我们开发了一个严谨的可识别性理论,建立在最近的非线性独立分量分析(ICA)结果中,结果是模拟这一原理,并展示了如何恢复潜在变量,如果一个规则大致潜在机制为稀疏,如果某些图形连接标准通过数据生成过程满足。作为我们框架的特殊情况,我们展示了如何利用未知目标的干预措施来解除潜在因子,从而借鉴ICA和因果关系之间的进一步联系。我们还提出了一种基于VAE的方法,其中通过二进制掩码来学习和正规化潜在机制,并通过表明它学会在模拟中的解散表示来验证我们的理论。
translated by 谷歌翻译
用于解决无约束光滑游戏的两个最突出的算法是经典随机梯度下降 - 上升(SGDA)和最近引入的随机共识优化(SCO)[Mescheder等,2017]。已知SGDA可以收敛到特定类别的游戏的静止点,但是当前的收敛分析需要有界方差假设。 SCO用于解决大规模对抗问题,但其收敛保证仅限于其确定性变体。在这项工作中,我们介绍了预期的共同胁迫条件,解释了它的好处,并在这种情况下提供了SGDA和SCO的第一次迭代收敛保证,以解决可能是非单调的一类随机变分不等式问题。我们将两种方法的线性会聚到解决方案的邻域时,当它们使用恒定的步长时,我们提出了富有识别的步骤化切换规则,以保证对确切解决方案的融合。此外,我们的收敛保证在任意抽样范式下担保,因此,我们对迷你匹配的复杂性进行了解。
translated by 谷歌翻译
有限和最小化的方差减少(VR)方法通常需要对往复且难以估计的问题依赖性常数的知识。为了解决这个问题,我们使用自适应梯度方法的想法来提出ADASVRG,这是SVRG的更强大变体,即常见的VR方法。 ADASVRG在SVRG的内循环中使用Adagrad,使其稳健地选择阶梯大小。当最小化N平滑凸函数的总和时,我们证明了ADASVRG的变体需要$ \ TINDE {O}(N + 1 / ePSILON)$梯度评估,以实现$ O(\ epsilon)$ - 次优,匹配典型速率,但不需要知道问题依赖性常数。接下来,我们利用Adagrad的属性提出了一种启发式,可以自适应地确定ADASVRG中的每个内循环的长度。通过对合成和现实世界数据集的实验,我们验证了ADASVRG的稳健性和有效性,证明了其对标准和其他“无调谐”VR方法的卓越性能。
translated by 谷歌翻译